不靠专家出题,8万条人类终端录像,炼成首个真实CLI工作流基准TerminalWorld
不靠专家出题,8万条人类终端录像,炼成首个真实CLI工作流基准TerminalWorldAI Agent 正在重塑软件开发。写代码、修 bug,它的能力肉眼可见地往上涨。但软件开发,从来不止 "写代码" 这一件事。装环境、配依赖、部署服务、编排容器、管理云资源、处理安全策略,这些 "让软件活起来" 的脏活累活,才是真实开发的大头。而它们,几乎都发生在同一个地方:终端。
搜索
AI Agent 正在重塑软件开发。写代码、修 bug,它的能力肉眼可见地往上涨。但软件开发,从来不止 "写代码" 这一件事。装环境、配依赖、部署服务、编排容器、管理云资源、处理安全策略,这些 "让软件活起来" 的脏活累活,才是真实开发的大头。而它们,几乎都发生在同一个地方:终端。
OpenAI 的 tevfik 写了篇关于 loop engineering 的文章,开头那句我读完顿了一下。他说,他和 coding agent 协作,到现在大多还是同一个流程:我解释一个任务,等结果,审一遍,再发下一条指令。代码是 agent 写的,但我在后台还干着另一份活——我记着发生了什么、决定下一步做什么、判断这事到底完成没。
近期,在 LangChain 举办的智能体大会 Interrupt 上,吴恩达与 LangChain 创始人 Harrison Chase 进行了一场关于 AI Agent 的对谈。整场交流的核心并不是简单讨论 Agent 有多强,而是围绕一个更现实的问题展开:当 AI Agent 让软件开发变快之后,真正的瓶颈会转移到哪里?
我们相信,常驻型 (always-on) AI 助理的下一次飞跃,不在于把某一个模型单点调得更聪明,而在于扩展智能体的上下文 (Scaling Agent Context)—— 不断拓宽助理能够持续 "感知 — 推理 — 执行" 的范围,作为生活连接器连接用户的信息孤岛,直到它能接管用户的整个数字世界。
多智能体系统正在从学界走向业界。 在 Coding、Research 等真实场景里,越来越多系统不再只依赖单个 agent,而是由多个 Agent 分工协作:有人负责规划,有人负责检索,有人调用工具,
新加坡AI Agent 峰会台上四个人,焦虑方向正好相反。
在做 Agent Memory 工程化探索的这几个月里,我经常有种被概念淹没的窒息。图结构记忆、AutoMemory、做梦机制、各种层出不穷的 Memory 框架……整个技术社区似乎陷入了一种每遇到一个新场景就要发明一套新词汇的群体焦虑中。
未来设计的交付物,可能就是产品原型本身。
AutoResearch这个词关注AI的同学应该不陌生,大神Andrej Karpathy提出的Agent 自主科研项目,现在已经是GitHub的明星项目了,应用不计其数。
谷歌今天发布了一个叫 Open Knowledge Format(OKF)的开放规范。